iT邦幫忙

2025 iThome 鐵人賽

DAY 24
0
AI & Data

AI初學者入門系列 第 24

Day24 HyDE(Hypothetical Document Embeddings)

  • 分享至 

  • xImage
  •  

一、HyDE 的基本概念

HyDE 的全名是 Hypothetical Document Embeddings,直譯為「假想文件嵌入」。基本概念是:在檢索之前,不是直接拿 Query 去查資料,而是先利用大型語言模型(LLM)生成一份「假想文件」,再將這份文件嵌入(Embedding)到向量空間中,用來檢索資料庫。

先寫一篇「腦中假想的答案」,這份答案雖然不一定正確,但會含有更多的上下文與語意線索,而引導檢索系統找到更精準的結果。

二、HyDE 的運作流程

若與傳統 RAG 對照,HyDE 的流程多了一步「生成假想文件」:

  1. 輸入查詢(Query)
    例如:「量子電腦的主要應用是什麼?」
  2. 生成假想文件
    LLM 先寫一篇「可能的答案」,例如:
    量子電腦主要應用於密碼學、藥物研發、材料模擬。
  3. 向量化嵌入(Embedding)
    把這篇「假想答案」轉成向量,作為檢索查詢的表示。
  4. 檢索真實資料
    用假想文件的向量去資料庫比對,找到相關度更高的真實文件。
  5. 生成最終回答
    將檢索到的文件餵給 LLM,融合之後產出最終答案。

三、優勢

  1. 解決查詢過短問題
    短查詢可能檢索不到足夠資訊,但假想文件能自動補足語意。
  2. 提升檢索召回率
    假想文件會展開 Query,增加語意覆蓋範圍。

三、挑戰

  1. 幻覺偏差(Hallucination Bias)
    假想文件可能是錯的方向
  2. 額外計算成本
    每次查詢都需要先產生假想文件,計算成本高
  3. 過度擴張語意

四、通常應用於

  1. 開放領域問答:特別是查詢過短、語意不清楚的情況。
  2. 學術與專利檢索:研究問題往往抽象,HyDE 能幫助擴展檢索語境。

上一篇
Day23 多模態檢索(Multimodal RAG)
下一篇
Day25 CRAG (Corrective Retrieval-Augmented Generation )
系列文
AI初學者入門30
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言